La Precedenza Logica della Validazione
L'inferenza statistica è intrinsecamente condizionata. Ogni conclusione che traiamo su un parametro $\theta$ è rigorosamente vincolata all'assunzione che i dati osservati $s$ siano stati generati da una qualche distribuzione all'interno del nostro modello ipotizzato $\mathcal{M} = \{P_\theta : \theta \in \Theta\}$.
Stima: Assume che $P_{vero} \in \mathcal{M}$ e cerca il "migliore" $\theta$ (ad esempio, il MLE $\hat{\theta}$). Funziona all'interno del modello.
Controllo del Modello: Rilassa l'assunzione che il modello sia vero. Si chiede se qualunque $\theta \in \Theta$ possa spiegare i pattern nei dati. Funziona sul del modello.
Crisi di Rilevanza (Trappola)
Se la distribuzione vera che ha generato i dati si trova al di fuori del modello statistico $\mathcal{M}$, allora $\theta$ perde il suo significato scientifico. Cadiamo in una trappola statistica: la rilevanza di ogni inferenza successiva diventa discutibile. In sostanza stiamo calcolando le proprietà di una finzione matematica piuttosto che di una realtà fisica.
Esempio 9.1.1: Il Modello Normale di Posizione
Considera il caso più semplice in cui assumiamo $X_i \sim N(\theta, 1)$.
Calcoliamo la media campionaria $\bar{x}$. Nel modello Normale, $\bar{x}$ è la stima ottimale per il 'centro' dei dati.
Supponiamo che i dati contengano effettivamente valori estremi o seguano una distribuzione con code pesanti distribuzione di Cauchy. Anche se possiamo ancora calcolare meccanicamente $\bar{x}$, esso non rappresenta più il centro della distribuzione in modo significativo. I nostri intervalli di confidenza saranno pericolosamente stretti, portando a una falsa certezza perché il modello Normale era errato.